财报会议

NVIDIA FY25 Q4 财报 — Blackwell ramp

历史背景:Blackwell 商用量产之后的第一份完整季度。单季度 Blackwell 营收 110 亿美元,被 黄仁勋 称为 "NVIDIA 史上最快的产品爬坡"。这场会议上 黄仁勋 也首次公开把 AI 的 scaling law 拓展为三条:pretraining、post-training、以及 test-time scaling/推理时长扩展。他用 DeepSeek-R1 作为切入口,论证 推理时代 的到来——以及为什么 Blackwell 是为这个时代量身定制的。

Q&A 精选

训练、推理的边界正在模糊

分析师问:随着 test-time compute 和强化学习越来越关键,训练和推理的界限越来越模糊。这对未来是否会有"专门用来推理的集群"、以及对 NVIDIA 和你的客户有什么影响?

黄仁勋:现在有多条 scaling law 同时在生效。

第一条是 pretraining scaling。这条会继续放大,因为我们有了多模态、我们有了来自推理过程的数据用于预训练。

第二条是 post-training scaling——用 RLHF、RLAIF、可验证奖励做的强化学习。post-training 用掉的算力实际上已经超过了 pretraining。这件事其实很合理:当你做强化学习的时候,会生成海量合成数据、海量 token——AI 模型本质上在生成 token 来训练另一个 AI 模型。

第三条是 test-time compute / 推理时长扩展 / reasoning。今天一个带 chain-of-thought、带搜索的推理模型,一次任务消耗的 token 量已经是早期单次推理的 100 倍。这才刚刚开始。下一代可能是今天的几千倍;真正的模拟/搜索模型可能是今天的几十万倍、几百万倍。

那怎么去设计这样一个架构呢?有些模型是自回归的,有些是 diffusion 的,有时你要做 disaggregated inference,有时要做紧耦合的。你很难预先知道数据中心最佳配置是什么——这正是为什么 NVIDIA 的架构如此受欢迎。我们跑所有的模型。我们擅长训练。今天我们的算力中有绝大多数都在跑推理,而 Blackwell 把这一切又拉到一个新的高度。

我们设计 Blackwell 的时候就是冲着 reasoning 模型去的。在长思考的 test-time scaling 场景下,BlackwellHopper 快几十倍、吞吐高 25 倍。你可以根据当前是 pretraining、post-training 还是 scale-out 推理灵活地配置数据中心——我们的架构是 fungible 的。我们看到的是:比以往任何时候都更集中地走向一个统一架构

GB200 爬坡与 Grace Blackwell 的复杂度

分析师问:GB200 爬坡进展如何?系统级瓶颈是否已经解除?你们对 NVL72 平台还一样有信心吗?

黄仁勋我今天比 CES 的时候更有信心,因为我们自从 CES 以来已经出货了很多。

我们有大约 350 家工厂在制造每一台 Blackwell 整机柜里的 150 万个零件。这件事非常复杂,但我们成功、快速地爬坡,上季度交出了 110 亿美元 Blackwell 收入。我们得继续扩大规模,因为需求非常高,客户都在焦急地等着拿到自己的 Blackwell 系统。CoreWeave 已经公开宣布成功上线,微软也是,OpenAI 也是。没有一件事是容易的,但我们做得很好。

强需求为什么能延续

分析师问:什么指标让你有信心这种强需求能持续到明年?DeepSeek 改变你的看法了吗?

黄仁勋:Vivek 我们知道几件事。

第一,我们对数据中心的资本开支规模有相当清晰的可见度。

第二,我们知道未来大部分软件都会是基于机器学习的。所以 加速计算 和 生成式 AI、reasoning AI 就是你数据中心里该要的那种架构。

第三是来自顶级合作伙伴的 forecast,以及下一波令人兴奋的创业公司。不管是 agentic AI、reasoning AI 还是 物理 AI,这些公司都在蓬勃涌现,每一家都需要大量算力。

更根本地说:软件已经从"人类手写、跑在 CPU 上"切换成"基于机器学习、跑在 GPU 和加速计算系统上"了。这就是软件的未来。

另一种看法:我们其实才刚刚触及消费级 AI、搜索、广告、推荐系统——这些都是软件的前菜。下一波正在到来:面向企业的 agentic AI、面向机器人的 物理 AI、以及各地区自建生态的 sovereign AI。每一个都还几乎没有起步,我们能看到它们,因为我们就在这些发展的中心。

Blackwell Ultra 与 Vera Rubin 的节奏

分析师问:Blackwell Ultra 下半年量产是否还在计划上?你们同时爬坡两代产品,客户和供应链怎么消化?

黄仁勋:是的,Blackwell Ultra 在下半年。第一代 Blackwell 我们遇到了一个小插曲,大概损失了几个月——当然我们已经完全恢复了。团队表现极其出色。

下一代列车不会停。下一代是年度节奏,Blackwell Ultra 会带来新的网络、新的内存、新的处理器。这次我们已经和所有合作伙伴充分沟通好了。

Blackwell 到 Blackwell Ultra 这个过渡,系统架构几乎没变。真正难的是从 HopperBlackwell 那一跳——我们从 NVLink 8 跳到了 NVLink 72——机架、架构、硬件、供电全都要重做。但 Blackwell Ultra 会直接插进现有架构里。

我们也已经在和大家一起准备 Blackwell Ultra 之后的那一代。它叫 Vera Rubin——会是又一次巨大的跳跃。GTC 见。

ASIC vs GPU:四个理由

分析师问:很多定制 ASIC 出来了。客户会建异构 supercluster 吗?还是这些基础设施各管各的?

黄仁勋:我们和 ASIC 做的事情其实完全不一样。

第一,NVIDIA 的架构是通用的。不管是自回归、diffusion、视觉、多模态还是纯文本模型,我们都很好。因为我们的栈足够通用、生态足够丰富,所以几乎每一个创新算法都会首先以 NVIDIA 架构作为目标。

第二,我们是端到端的。从数据处理、数据 curation,到训练、post-training 里的 RL,再到带 test-time scaling 的推理——整条流水线。

第三,速度就是性能、性能就是收入。数据中心的尺寸是固定的,或者电力是固定的。如果我们的 performance-per-watt 是 2 倍、4 倍、8 倍,那直接就是 2 倍、4 倍、8 倍的收入——因为 AI 工厂 的收入是通过生成的 token 直接变现的。这是过去任何数据中心都没有的特性。

第四,软件栈非常难。建一颗 ASIC 和建一个架构没区别。但今天在我们架构之上的生态系统,已经比两年前复杂了 10 倍。

最后我要说一句:设计一颗芯片不等于它会被部署。你已经看到过很多次了,很多芯片被造出来,但部署的时候,一个商业决策就要做——给这个面积、这个功耗有限的 AI 工厂换上哪个引擎?我们不仅技术更先进、性能更好,软件能力更强,而且我们的部署速度是光速级的。

AI 全面走进主流

分析师问:美国地区营收环比大增 50 亿美元左右。如果其他地区有监管限制,美国能撑起来吗?

黄仁勋:中国现在的比例大致和 Q4、和之前几个季度差不多,大约是出口管制之前的一半。

但更重要的一点:AI 就是软件。它是现代软件,非常了不起的现代软件。AI 已经进入主流。你买一盒牛奶送货上门——AI 参与了。每一个学生都会用 AI 当家教。医疗、金融、气候、矿产勘探、每一所大学、每一家金融科技公司……几乎每一个消费服务里 AI 都是核心。

我们真的在这场转变的开端。过去几十年建起来的数据中心是为"手工编写代码 + 通用 CPU"的世界而设计的。未来几乎所有软件都会被 AI 浸透,所有服务最终都建立在机器学习之上,数据飞轮会成为改善软件和服务的方式,未来的计算机将是加速的,未来的计算机将基于 AI。我们才走了两年——而我们要现代化的,是花了几十年建起来的数据中心体系。

还有最后一点:没有任何一项技术,曾经有机会服务全世界 GDP 这么大的一块。从来没有一个软件工具能达到这种规模。所以,当我们谈论 NVIDIA 的增长是大是小时,必须放在这个背景下看——从这个角度说,我们真的才刚刚开始。

为什么老的 GPU 也没有闲着

分析师问:距离 2023 年 Hopper 拐点快两年了,什么时候是大规模替换周期?

黄仁勋:我先说一件事:今天人们还在用 Volta、Pascal、Ampere。为什么?因为 CUDA 平台 是可编程的,这些老卡总有事情可做。

Blackwell 今天的一大类负载是数据处理和数据 curation。你找出一个 AI 模型不擅长的场景——比如一辆车遇到某种路况——你把它喂给一个视觉语言模型,让它描述"这里发生了什么,我为什么不擅长",然后你用 AI 去你的整个数据湖里找"类似的情况",再用另一个 AI 做域随机化生成更多例子,最终生成训练集,喂给 Hopper 系统去训练。

所以这几代架构都是 CUDA 平台 兼容的,负载可以跑在任何一代上。如果你有老的基础设施,你就把负载较轻的活儿丢到上一代装机里——所有人都充分被雇佣。

agentic AI 与物理 AI:企业机会比云更大

分析师问:企业的增速已经和大 CSP 一样了。CSP 的内外部使用怎么分布?未来企业会不会变成更大的一块?

黄仁勋:CSP 大约占我们业务的一半。CSP 本身有内部消费也有外部消费,而我们和他们一起紧密优化内部负载,这让他们已经投入的 NVIDIA 基础设施利用率更高。因为我们对 AI、对视频处理、对 Spark 这种数据处理都能加速——我们是 fungible 的。基础设施的可用寿命更长,TCO 就更低。

至于企业和非 CSP 部分未来会不会变得更大——长期看,我相信它会远远更大。

给你一个例子。以汽车公司为例,它同时做"软的东西"和"硬的东西"。

所以一共涉及三台计算机:一台帮助人;一台为机器构造 AI;一台在物理世界里运行。这些物理系统需要一种新的 AI——我们叫它 物理 AI。它不能仅仅理解语言和意义,它必须理解世界的意义——摩擦力、惯性、物体永恒性、因果。所有这些对你我是常识,但 AI 要去学这些物理效应。

用 agentic AI 彻底改变企业内部工作方式,这才刚开始。然后是 物理 AI,然后是机器人系统。这三台新计算机都是全新的。从长期看,这块会远远更大——这其实合情合理,因为全球 GDP 本质上就是由重工业和为它们服务的公司构成的。

闭幕陈述

Blackwell 的需求是非同寻常的。AI 正在从感知和 生成式 AI 演进到 reasoning。在 reasoning AI 下,我们看到另一条 scaling law 出现——inference time / test-time scaling——模型思考得越多,答案越聪明。OpenAI o3、Grok 3、DeepSeek-R1 都是应用推理时长扩展的 reasoning 模型。Reasoning 模型可以消耗 100 倍的算力。未来的 reasoning 模型可能再消耗更多。

DeepSeek-R1 点燃了全球热情。这是一个了不起的创新——更重要的是,它开源了一个世界级的推理模型。今天几乎每一个 AI 开发者都在用 R1、或者用 R1 那种 chain-of-thought + RL 的技术来扩展自己的模型。

我们现在有三条 scaling law 在推动 AI 算力的需求:
1. 传统的 scaling law 仍然在延续,预训练仍在增长;
2. post-training scaling——RL、微调、蒸馏所需算力是预训练的数倍;
3. 推理时长扩展——一次查询可以多消耗 100 倍算力。

我们正是为这一刻定义了 Blackwell一个可以从预训练、后训练到推理时长扩展无缝切换的单一平台。Blackwell 的 FP4 transformer engine、NVLink 72 scale-up fabric 和新的软件技术,让它处理 reasoning AI 模型的速度是 Hopper 的 25 倍。Blackwell 现在在全部配置上都已经量产。每一个 Grace Blackwell NVLink 72 机柜都是工程奇迹:150 万个零件,由 350 家工厂、近 10 万名产线工人制造

AI 正在以光速演进。我们站在 reasoning AI 和推理时长扩展的起点——但真的只是 AI 时代的起点。多模态 AI、企业 AI、主权 AI 和 物理 AI 就在转角处。2025 年我们会有强劲的增长。

往后看,数据中心的大部分资本开支都会投入到加速计算和 AI 上。数据中心会逐步变成 AI 工厂——每家公司要么租用、要么自建。


原文出处Motley Fool — NVDA Q4 FY25 Earnings Call Transcript
相关卡片Blackwell · Vera Rubin · 推理时代 · 物理 AI · AI 工厂 · Extreme Co-Design · Hopper · Token 经济